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基于 FasterR-CNN 的 服务 机 器 人 物品 识别 研究 
A A, WEN, KTE 


(北京 信息 科技 大 学 自动 化 学 院 ,， 北京 100192) 


dE 要 : 随 着 机 器 人 在 服务 行业 中 的 应 用 推广 ， 尤 其 在 家 庭 服务 中 有 着 重要 的 作用 ， 对 服务 机 器 人 的 信息 采集 或 目标 
识别 需求 也 越 来 越 强烈 。 传 统 的 日 用 商品 识别 流程 通常 使 用 较为 经 典 的 图 像 识别 和 机 器 学 习 算 法 ， 如 支持 向 量 机 
(SVM)、 随 机 森林 或 Adaboost， 然 后 利用 目标 图 像 的 梯度 、 纹 理 或 颜色 的 基本 特征 来 对 日 用 商品 进行 识别 ， 可 以 在 比 
较 简 单 的 背景 中 得 到 应 用 ， 但 是 在 复杂 的 背景 环境 中 很 难 有 比较 突出 的 表现 ， 并 且 难 以 达到 较 高 的 准确 率 。 目 前 在 目 
标识 别 中 表现 比较 优异 的 是 卷 积 神 经 网 络 (CNN)， 并 成 为 很 多 目标 识别 场景 中 的 首选 。 考 虑 到 服务 机 器 人 的 硬件 配置 
成 本 ， 将 基于 区 域 的 卷 积 神经 网 络 (R-CNN) 的 快速 算法 Faster R-CNN 引入 系统 中 ， 并 以 CPU 计算 的 方式 进行 物品 识 
别 。 利 用 CNN 网 络 提取 图 像 特征 ， 在 其 后 面 接 入 一 个 区 域 提 议 层 。 实 验 结果 表明 ， 将 深度 学 习 的 识别 方法 应 用 到 服 
务 机 器 人 平台 是 可 行 的 ， 识 别 效果 准确 ， 且 在 实验 中 得 到 较 好 的 检测 效果 。 
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Item recongnition based on faster R-CNN in service robot 


Shi Ji, Zhou Yali, Zhang Qizhi 
(School of Automation, Beijing Information Science & Technology University, Beijing 100192, China) 


Abstract: With the promotion and application of robots in the service industry, especially in the family service, the demand for 
information collection or target recognition for service robots is also getting stronger and stronger. Traditional commodity 
recognition processes typically use the more classic image recognition and machine learning algorithms such as support vector 
machines (SVM) , random forest or adaboost, then use the basic characteristics of the gradient, texture or color of the target 
image. It can be applied in a relatively simple background, but it is hard to have a more prominent performance in a 
complicated background environment, and it is difficult to achieve a high accuracy. At present, the convolution neural network 
(CNN) , which is superior in target recognition, has become the first choice in many target recognition scenarios. Considering 
the hardware configuration cost of service robot, Faster R-CNN, a fast algorithm of region-based convolutional neural network 
(R-CNN) , is introduced into the system and identified by CPU. The CNN network is used to extract image features and access 
to a regional proposal layer behind it. The experimental results show that it is feasible to apply the deep learning recognition 
method to the service robot platform. The recognition effect is accurate and the test results are good. 


Key words: service robot; deep learning; Faster R-CNN; commodity recognition 


z] 平台 实现 物品 识别 是 未 来 行业 发 展 的 重要 趋势 。 一 方面 ， 服 务 
机 器 人 具有 较为 完善 的 硬件 基础 ， 可 以 完成 基础 的 任务 ， 功 能 
近年 来 ， 随 着 机 器 人 行业 的 迅猛 发 展 ， 服 务 型 机 器 人 开始 。 强大 ; 另 一 方面 ， 深 度 学 习 在 识别 领域 不 仅 能 够 完成 多 目标 识 


ill 
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进入 大 众 视野 ， 而 人 工 智能 相关 技术 的 快速 发 展 使 得 服务 机 器 。 别 任务 ， 还 有 很 高 的 准确 率 。 

人 得 到 了 越 来 越 多 的 技术 支持 。 服 务 机 器 人 具有 非常 广泛 的 应 物体 检测 识别 依赖 于 计算 机 视觉 的 发 展 ， 一 直 以 来 是 图 像 
用 前 景 ， 其 发 展 是 实现 自动 化 服务 的 重要 一 步 。 同 时 ,日 用 商 ” 工程 领域 重要 的 研究 热点 。 但 由 于 技术 发 展 的 落后 、 大 众 对 物 
品 识别 是 智能 服务 行业 的 一 个 基础 的 研究 问题 ， 也 是 用 于 采集 ” 体 识 别 的 认 知 度 不 强 和 算法 应 用 场景 的 限制 ， 物 体检 测 真正 快 
和 分 析 超 市 日 用 商品 大 数据 信息 的 前 提 和 基础 。 在 服务 机 器 人  ” 速 的 发 展 起 始 于 20 世纪 90 年 代 。 人 的 肉眼 通过 视野 内 物体 的 
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纹理 特征 、 颜 色 特 征 、 深 度 信息 等 ， 定 位 、 识 别 目标 物体 非常 让 模型 实现 完全 端 对 端的 训练 。RPN 的 作用 是 根据 “物体 ”的 
简单 。 然 而 计算 机 在 处 理 图 像 时 ， 面 对 的 是 数值 化 的 三 通道 矩 分 数 来 输出 可 能 目标 。 这 些 目标 区 域 被 后 面 的 ROI 池 化 和 全 链 
KE CHI RGB 矩阵 ) ， 难 以 直接 得 到 货架 、 物 品 这 种 抽象 的 概念 ， 接 层 来 做 分 类 。 
再 加 上 图 片 背景 的 复杂 度 、 物 品 摆 放 姿态 的 多 样 性 和 不 同 的 光 随 着 深度 学 习 在 近 些 年 的 爆炸 性 发 展 和 机 器 人 在 服务 行业 
照 强 度 等 其 他 外 界 干扰 因素 ， 使 得 物体 检测 更 加 困难 。 与 传统 的 广泛 应 用 ， 本 文 在 上 述 成 果 的 基础 上 ， 将 深度 学 习 的 方法 应 
的 物品 识别 检测 相 比 ， 服 务 机 器 人 采集 的 图 像 具 有 背景 更 为 复 到 智能 服务 机 器 人 平台 。 考 虑 到 识别 准确 率 和 识别 时 间 ， 本 
杂 、 采 和 集 现场 光亮 强度 不 一 、 识 别 目标 距离 的 远近 、 相 同 物品 文 主要 利用 Faster R-CNN 作为 目标 检测 算法 ， 硬 件 平台 采用 自 
不 同形 状 等 难题 。 传 统 的 物品 识别 方法 主要 采用 基本 图 像 处 理 主 研发 的 服务 机 器 人 。 该 机 器 人 具有 路 径 规划 、 行 人 跟踪 、 物 
HE, WERE, HOG” (histogram of oriented gridients)、 体 抓 取 、 自 主导 航 等 功能 。 本 文 实现 的 是 机 器 人 自主 识别 物品 ， 
K-means 聚 类 算法 ”特征 点 匹配 算法 ”加速 稳健 特征 (speeded 为 未 来 实现 自主 抓 取 、 导 航 打 下 基础 。Faster R-CNN 主要 有 两 
up robust features, SURF)“ 等 。 在 传统 的 目标 检测 方法 中 ，2001 种 训练 模式 , 一 种 是 2015 年 NIPS 中 的 “alternating optimization " 
年 Viola 等 人 在 论文 “和 鲁 棒 实时 目标 检测 ”中 提出 的 Viola-Jones (alt-opt) "方法 ， 它 的 训练 特点 是 迭代 ， 先 训练 RPN， 随 后 用 
框架 "得 到 了 广泛 的 关注 。 这 种 方法 速度 快 、 相 对 简单 ， 傻 瓜 建议 框 去 训练 Fast R-CNN, 被 Fast R-CNN 微调 的 网 络 用 来 初始 
相机 的 实时 脸 部 检测 就 是 使 用 这 种 算法 ， 它 的 运算 量 很 小 。 它 化 RPN， 以 此 迭代 ; 男 一 种 是 “End to End”， 其 训练 特点 是 将 
使 用 Harr 特征 "来 生成 不 同 的 简单 的 二 分 类 ， 这 些 分 类 被 级 联 RPN 和 Fast R-CNN 融合 到 一 个 网 络 中 进行 训练 , 在 每 次 随机 梯 
的 多 尺度 滑动 窗口 来 处 理 ， 并 且 会 及 时 丢弃 错误 分 类 。 度 下 降 (SGD) 迭代 过 程 中 , 前 向 传递 时 RPN 产生 区 域 建议 框 ， 

深度 学 习作 为 机 器 学 习 领 域 的 延伸 已 经 众人 丝 知 了 ， 尤 其 这 些 建议 框 被 当做 固定 的 、 提 前 计算 好 的 建议 框 来 训练 Fast 
在 计算 机 视觉 领域 。 与 深度 学 习 模型 在 图 像 分 类 领域 优 于 传统 R-CNN 检测 器 。 反 向 传递 时 ， 对 于 共享 层 来 说 , 来 自 RPN 的 损 
模型 类 似 ， 深 度 学 习 现 在 也 是 目标 检测 领域 中 最 好 的 方法 。 过 失 函 数 与 Fast R-CNN 的 损失 函数 结合 。 但 是 这 种 方法 不 考虑 边 
去 几 年 深度 学 习 目 标 检 测 方法 有 了 很 大 的 进步 ， 纽 约 大 学 的 研 界 框 (bounding boxes) ， 忽 略 了 建议 框 的 坐标 也 是 网 络 的 输出 。 
究 人 员 在 2013 年 提出 了 Overfeat”" ， 并 在 目标 检测 领域 取得 很 。 这 两 种 算法 主要 推荐 第 二 种 方法 ， 因 为 “End to End” 使 用 的 显 
大 进展 ， 他 们 提出 了 一 种 使 用 卷 积 的 多 尺度 滑动 窗口 算法 。 存 小 ， 而 且 训 练 更 快 ， 同 时 准确 率 略 高 于 alt-opt 算法 ， 实 验 也 
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Overfea 提出 不 久 ， 伯 克利 大 学 的 Girshick 等 人 "提出 了 基于 区 将 会 对 比 两 种 算法 的 测试 效果 。 本 文 主要 将 深度 学 习 Faster 
域 的 卷 积 特征 (region-based convolutional neural network , R-CNN 应 用 到 家 庭 服 务 机 器 人 平台 ， 通 过 竞赛 和 实际 实验 得 出 
R-CNN) 算法 ， 这 也 是 深度 学 习 在 目标 检测 领域 的 重大 突破 ， 了 将 深度 学 习 算法 应 用 服务 机 器 人 的 可 行 性 和 有 效 性 ， 并 且 识 


该 算法 在 目标 检测 效果 上 相 比 传统 方法 取得 了 50% 的 性 能 提 ”” 别 效果 要 强 于 传统 方法 。 
jh. Waa 提出 me e 使 用 1 ”物品 识别 算法 
取 可 能 目标 ， 现 在 流行 的 方法 是 选择 性 搜索 (selective search ) 

UU. b) 使 用 卷 积 神经 网 络 Cconvolution neural network ,CNN ) 1.1 Fast R-CNN 算法 

在 区 域 上 提取 特征 ; cO 使 用 支持 向 量 机 Csupport vector 虽然 R-CNN 使 用 了 选择 性 搜索 等 预 处 理 步 又 来 提取 潜在 
machine,SVM) "对 区 域 进行 分 类 。 虽 然 R-CNN 在 当时 目标 检 — ff] bounding box 作为 输入 ， 但 是 R-CNN 仍 会 有 严重 的 速度 瓶 
测 领 域 取得 了 非常 不 错 的 成 绩 , 但 是 在 训练 过 程 中 有 很 多 问题 。 “” 颈 。 原 因 也 很 明显 ， 就 是 计算 机 对 所 有 区 域 进行 特 征 提 取 时 会 
首先 需要 生成 训练 集 的 建议 区 域 , 然后 在 每 个 区 域 使 用 CNN 特 ”有 重复 计算 。FastR-CNN 正 是 为 了 解决 这 个 问题 诞生 的 。 


征 提取 器 来 提取 特征 ， 最 后 训练 SVM 分 类 器 。 这 个 过 程 需要 消 Fast R-CNN 算法 解决 了 R-CNN 算法 的 三 个 问题 : 


耗 大 量 的 时 间 。 在 2015 Æ Girshick "RK Y FastR-CNN， 这 种 DUNARE. Fast R-CNN 解决 方法 : Fast R-CNN 将 整 张 
方法 迅速 进化 成 一 个 纯 深 度 学 习 方 法 。 与 R-CNN 相似 ， 它 使 用 图 像 归 一 化 后 直接 送 入 CNN。 在 最 后 的 卷 积 层 输出 的 特征 图 
选择 性 搜索 来 生成 区 域 建议 ， 但 与 R-CNN 不 同 的 是 ，Fast ”上 ， 加 入 建议 框 信息 ， 使 得 在 此 之 前 的 CNN 运算 得 以 共享 。 
R-CNN 在 整 张 图 上 使 用 CNN 来 提取 特征 ， 然 后 在 特征 图 上 使 b) 训 练 速度 慢 。 Fast R-CNN 解决 方法 : Fast R-CNN 在 训 
区 域 兴 趣 池 化 (region of interest，ROI〉， 最 后 是 一 个 反 向 传 ZR 只 需要 将 一 张 图 像 送 入 网 络 , 每 张 图 像 一 次 性 提取 CNN 


播 网 络 来 做 分 类 和 边框 回归 。 这 种 方法 不 仅 快 ， 而 且 因为 区 域 。 特征 和 建议 区 域 ， 训 练 数据 在 GPU 内 存 里 直接 进 Loss 层 ， 这 

兴趣 池 化 层 和 全 连接 层 ， 该 模型 可 以 进行 端 对 端的 差分 ， 训 练 ，” 样 候选 区 域 的 前 几 层 特征 不 需要 再 重复 计算 ， 并 且 不 再 需要 把 

也 很 容易 。 最 大 的 不 足 是 该 模型 仍旧 依赖 于 选择 性 搜索 这 也 ”大 量 数据 存储 在 硬盘 上 。 

成 为 了 模型 推理 阶段 的 一 个 瓶颈 。 co) 训练 所 需 空间 大 。Fast R-CNN 解决 方法 : Fast R-CNN 把 
随后 ，Ren SE A ^ T Faster R-CNN, 这 是 R-CNN 系列 。 类别 判断 和 位 置 回归 统一 用 深度 网 络 实现 ,不 再 需要 额外 存储 。 

的 第 三 个 迭代 。Faster R-CNN 增加 了 一 个 区 域 建议 网 络 (region Fast R-CNN 模型 同样 采用 CNN 的 结构 。 图 1 为 CNN 的 传 

proposal network，RPN)“"， 试 图 摆脱 选择 性 搜索 算法 ， 从 而 统 架构 。 采 样 层 交替 插入 在 卷 积 层 中 ， 这 样 图 像 在 经 过 卷 积 层 
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后 所 提取 的 特征 ， 再 经 过 筛选 组 合 形成 新 的 特征 图 ， 这 个 特征 


图 是 对 原始 区 


输入 
32*32 


片 更 抽象 的 描述 ， 最 后 把 这 些 更 加 抽象 的 参数 归 
1 方便 的 一 维 数组 ， 就 形成 全 链接 层 ， 通 过 得 分 


一 化 成 计算 更 力 
函数 进行 物品 的 分 类 、 检 测 。 


c3 S4 
S2 6@10"10 1695*5 
6@14*14 


| 全 连接 Arya 
卷 积 池 化 “全 连接 高 斯 连接 


图 1 CNN 网 络 架构 


1.2 Faster R-CNN 算法 

Faster R-CNN 的 一 大 特点 是 利用 RPN, 其 经 过 训练 可 以 直 
接 预测 出 建议 框 , 比 选择 性 搜索 预测 所 提取 的 预测 框 数 量 更 少 、 
速度 更 快 ， 且 RPN 的 预测 绝 大 部 分 在 GPU 中 完成 ， 同 时 卷 积 
网 和 Fast R-CNN 部 分 共享 ， 这 些 对 于 提升 物品 检测 速度 起 到 


至 关 重 要 的 作用 。 


Faster R-CNN 不 同 于 其 他 分 类 检测 网 络 的 两 个 关键 点 是 : 


引 使 用 区 域 推荐 网 络 替 代 原 有 的 选择 性 搜索 方法 产生 建议 


口 ; b) 产 生 建议 窗 
络 的 共享 。Faster 


口 的 卷 积 神经 网 络 和 目标 检测 的 卷 积 神经 网 
R-CNN 的 整体 框架 大 致 为 : 
*Faster R-CNN 把 整 张 图 片 输入 CNN， 进 行 特征 提取 


“生成 区 域 推荐 


建议 窗口 ， 对 于 输入 的 每 一 张 图 片 都 会 生成 300 个 建议 窗口 ; 
EEA DIAA] RO 生成 的 最 后 一 层 特 


*Faster R-CNN 4l 


征 图 上 ; 


1.2.1 区 域 推荐 网 络 


。 利 用 Softmax Loss 和 Smooth L1 Loss 对 分 类 概率 和 边框 
可 归 (bounding box regression). 联合 训练 。 
图 2 是 Faster R-CNN 网 络 结构 。 


，Faster R-CNN 用 区 域 推荐 窗口 生成 


H 


A.. 


区 域 回 归 网 络 


特征 图 


卷 积 神经 网 络 


2 Faster R-CNN 网 络 结构 
(RPN) 


为 了 将 一 个 物体 可 以 在 不 同 尺寸 下 识别 出 来 ， 有 两 种 主要 


方式 : a) 对 输入 进行 裁剪 ; b) 对 特征 图 进行 不 同 大 小 的 滑 框 
区 域 推荐 网 络 采取 了 不 同 的 方式 。RPN 的 输入 是 


卷 积 运 算 。 而 


任意 大 小 的 图 


8 是 一 组 打 过 分 的 候选 框 。 
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RPN 的 核心 思想 是 使 用 卷 积 神经 网 络 直接 产生 建议 区 域 ， 

使 用 的 方法 本 质 就 是 滑动 窗口 ， 并 且 只 需要 在 最 后 的 卷 积 层 上 
滑动 一 遍 , 在 每 一 个 滑动 窗口 的 位 置 , 同时 预测 k 个 区 域 推荐 ， 
所 以 回归 层 有 4k 个 输出 , Kk 个 box 的 坐标 编码 ; 分 类 层 输出 2k 
个 得 分 。 生 成 训练 数据 的 过 程 为 : 先 检查 anchor 覆盖 目标 的 真 
正 区 域 (ground truth) 是 否 超过 75%, 如 查 超 过 就 将 当前 anchor 
的 目标 分 类 标记 为 “存在 ”; 如 果 没 有 超过 就 选择 一 个 覆盖 比 
例 最 大 的 标记 为 “存在 ”， 即 对 每 个 建议 框 是 目标 / 非 目标 的 估 
计 概 率 。 因 为 anchor 机 制 和 边框 回归 可 以 得 到 多 尺度 长 宽 比 的 
RPN 网 络 也 是 全 卷 积 网 络 (fully-convolutional network , 
FCN'") ， 可 以 针对 生成 检测 建议 框 的 任务 端 对 端 地 训练 ， 能 
够 预测 出 物体 的 边界 和 分 数 ， 只 是 在 CNN. 上 额外 增加 了 2 个 
卷 积 层 (全 卷 积 层 cls 和 reg) 。 一 般 为 了 应 对 尺寸 旬 异 的 物体 ， 
Faster R-CNN 应 用 了 3 种 长 宽 比 类 型 不 同 的 Anchor， 即 1: 1、 
2: 1、1: 2。 再 将 这 3 种 Anchor 分 别 用 3 个 尺度 缩放 ， 即 128、 
256, 512, 4 9 种 类 型 的 Anchor boxes。 这 9 种 窗口 在 卷 积 特 
征 图 上 经 过 卷 积 运算 形成 256 维 向 量 CFaster R-CNN 有 三 种 训 
练 模式 ， 即 ZF"“"、VGG”"、VGG16。 这 里 的 256 维 针对 的 是 
ZF 模型 ，VGG 模型 需要 形成 512 维 的 向 量 ) ， 最 后 挑选 出 得 
分 最 高 的 300 个 窗口 作为 最 终 的 建议 窗口 。RPN 模型 网 络 结构 
如 图 3 所 示 。 


4k 个 坐标 | 


分 类 层 X f EE 


«(mm Kk anchor boxes 


-— |} 
5 
Æ 
ND 


卷 积 特征 图 


图 3 RPN 模型 网 络 结构 
RPN 的 目标 函数 是 分 类 和 回归 损失 的 和 。 根 据 文 献 [19] 分 
类 采用 了 交叉 焙 ， 回 归 采 用 了 稳定 的 Smooth Z1， 公 式 为 


Smootha (x) = | 05x pid (1) 


|d-0.5 others 


整体 的 损失 函数 具体 为 
L({p}{t})= 


1 ; (2) 
p» 2; Las[pipi) «4 D D; Lres (tit?) 


在 式 (2) 中 ，i 是 一 个 mini-batch 中 anchor 的 索引 ; Pi 是 i 
作为 一 个 目标 的 anchor 的 预测 概率 。 如 果 这 个 anchor XE, 则 


ground-truth 的 标签 D; 就 为 1; 如 果 这 个 anchor 为 负 , JU p^ 就 


为 0。fi 表 示 预 测 边界 框 的 4 个 参数 化 坐标 的 矢量 ， 并 且 二 是 


与 anchor 相关 联 的 ground-truth 的 矢量 。 
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RPN 中 分 类 损失 函数 为 


L«[s4]- -1og[ p; p+(1- »ja- p) 


对 于 边界 回 


mi 


t 
tw 
" 
t, 
* 
bi 


其 中 : x. y. wl 


` 


M 


于 y、w、ph) 。 


日 框 ， 本 文采 用 以 下 4 个 坐标 的 参数 公式 ; 


=(x— xa)/wa,ty 2 (y — y«)/ ha. 


LH 


ground-truth 的 边界 


1.2.2 训练 RPN 网 络 


og(w 


ERU =log(h/ha), 
(X - xa) /wast, - (y — ya) /ha, 
log(w°/wa),t, =l0g(h" /h«), 
h 表示 框 的 中 心 坐 标 及 其 
Ex. Xa. x" 分 别 代表 预测 框 、 
这 可 以 被 认为 是 从 一 个 anchor 框 到 附近 的 
归 框 。 


(4) 


宽度 和 高 度 ; 变 
anchor 框 和 ground-truth( 同 


RPN 网 络 一 般 通 过 方 


可 传播 和 随机 梯度 下 降 (stochastic 


gradient descent, SGD) 方法 来 进行 端 对 端 训练 。 本 文 遵 循 “以 


图 像 为 中 心 ” 的 采样 策略 来 训练 这 个 网 络 。 每 个 mini-batch 包 


含 很 多 正 、 负 样本 anchor 的 单个 图 像 。 对 所 有 anchor 的 损失 函 
数 进行 优化 是 可 能 的 ， 但 是 使 优化 结果 偏向 于 负 样 本 ， 因 为 它 


们 是 


5 据 主导 地 位 的 。 相 反 ， 本 文 在 图 


像 中 随机 采样 256 个 


anchor， 以 计算 mini-batch 的 损失 函数 ， 取 样 的 正 负 样 本 比例 


高 达 1:1。 如 果 图 像 中 的 了 


填充 mini-batch 。 
2 ”实验 研究 


2.1 


实验 平台 


Sun@Home 机 器 人 。 


本 实验 平台 主要 


E 样 本 少 于 128 个 ， 则 使 用 负 样 本 来 


图 4 是 北京 信息 科技 大 学 家 庭 服务 机 器 人 团队 的 


图 4 Sun@Home 家 庭 服务 机 器 人 
一 个 kinect 开 代 摄 像 头 的、 可 调 升降 机 


构 、3 自由 度 机 械 臂 、 全 向 轮 底 盘 和 一 个 检测 范围 为 270” 的 激 


光 雷 达 组 成 。 本 次 实验 使 用 到 的 传感器 装置 是 kinect ILE 


相 比 于 第 一 代 kinect， 第 二 代 kinect 感应 器 


分 辨 率 和 色彩 识别 度 ， 使 识别 更 加 精准 。 
1080， 深 度 感知 器 分 辩 率 为 12*424， 帧 率 为 30 fps: 
检测 范围 为 0.5~4.5 m。 同 时 其 


为 1920* 
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彩色 摄像 头 分 辩 率 


拍摄 的 高 清 图 片 可 提高 算法 对 物 


品 定位 、 识 别 的 精度 和 准确 度 。 


2.2 


器 ， 


张 JPG K 
验证 集 


总 图 片 的 1096, 


数据 集 


由 于 Faster R-CNN 官方 使 


的 是 1 000 类 ImageNet 数据 


采集 干 万 张 


集 ， 在 分 类 检测 时 有 比较 高 的 准确 率 和 较 好 的 识别 效果 ， 所 以 
本 次 实验 使 用 官方 的 预 训练 模型 对 重新 制作 的 VOC 数据 集 进 
行 微调 ， 这 样 在 不 | 图 

定 的 参数 。 


片 基础 上 也 可 以 得 到 较为 稳 


1) 数 据 集 的 采集 与 制作 ”由 于 机 器 人 自身 带 有 kinect 传 感 


所 以 使 | 


M 


JPEGlmages 中 ， 最 终 制 作成 VOC2007 数据 集 。 图 


] kinect 对 10 类 目标 物品 进行 录制 ,并 分 解 成 2010 
H, Labels 共有 2 010 个 XML 文件 。 训 练 集 和 训练 
有 总 图 片 的 90%， 即 1 8093K; 测试 集 和 验证 集 共 有 
即 201 张 。 最 后 将 XML 文件 ， 训 练 集 、 测 试 


验证 集 ， 图 片 分 别 放 入 Annotation, ImageSets 下 的 Main, 


采集 数据 的 实际 场景 。 


2) 数据 集 的 具体 内 容 


图 5 机 器 人 采集 数据 的 实际 场景 


可 乐 (cola) 、 牛 奶 (milk) . R 


Yy Cyoghourt) . 4 £f (toothpaste) ~ WIIHE Ccoffee) 、 绿 茶 (tea) ~ 
沐浴 露 (bath) . Zt AK (shampoo) ~ 7K Cwater) 、 香 皂 (soap) 。 


加 入 高 性 


3) 数 据 集 的 训练 平台 


E 能 GPU， 训练 使 用 的 服务 器 配置 是 : 


考虑 到 服务 机 器 人 的 硬件 设计 没有 
PIE Li 


17-6700K CPU 4 000 GHz*8, Geforce GTX 1080, ubuntul4.04 


64-bit, fiii SSD 256 GB. 。 同 时 训练 不 同 的 模型 所 | 


不 同 。 
2.3 提取 特征 图 
Faster R-CNN 特征 提取 的 核心 是 CNN, 它 会 学 习 到 物品 的 


的 时 间 也 


颜色 、 形 状 、 纹 理 等 特征 ， 同 时 也 学 习 到 背景 ， 利 用 Caffe 的 
化 方法 可 以 直观 地 看 到 目标 的 关键 信息 。 图 6 是 各 卷 积 层 


可 视 


i f S 


ERRER. H 
品 的 颜色 、 边 缘 等 ; conv3 提取 到 
提 


中 convl 和 conv2 对 浅 层 特征 的 提取 ， 如 物 


标的 纹理 特征 


; conv4, conv5 


取 到 更 为 关键 的 特征 。 


而 图 7 是 池 化 层 对 特征 的 精 提取 。 从 


ed 808.00076v1 
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图 中 可 以 看 出 物品 的 关键 信息 更 加 明显 。 


conv4 conv5 


职 层 提取 特征 图 
pool1 pool2 
图 7 池 化 层 对 特征 的 精 提取 
2.4 实验 结果 与 分 析 


本 实验 中 误 检 测 为 检测 到 物品 但 错误 地 识别 ， 漏 检测 为 未 
检测 到 物品 。 
1) Faster R-CNN 与 Fast R-CNN 实验 对 比 


在 本 实验 中 采用 了 Faster R-CNN 算法 ， 并 与 Fast R-CNN 


的 实验 效果 
在 识别 准确 率 上 有 很 大 的 不 同 。 对 于 RPN 网 络 的 训练 ， 


络 , 所 以 


同样 采用 了 


TRE RE 


预 


I| £i 


训练 模型 对 RPN 微调 的 方法 ， 将 RPN 训练 得 到 的 


进行 了 对 比 。 由 于 Faster R-CNN 多 训练 了 RPN 网 
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图 8 测试 场景 


DS 


图 10 Faster R-CNN 识别 效果 


Fast R-CNN 网 络 ; 将 Fast R-CNN 网 络 训练 得 到 的 


参数 固定 卷 积 层 微调 RPN;， 随后 在 固定 Fast R-CNN 卷 积 层 的 


前 提 下 , 通 


通过 


RPN 训练 得 到 的 候选 框 对 Fast R-CNN 进行 微调 ; 


重复 上 述 步 又， 直到 网 络 收敛 。 
测试 实验 图 中 物品 摆 放 的 原则 是 : 尽 可 能 将 外 形 、 颜 色相 近 
的 物品 摆 放 在 一 起 ， 同 品牌 的 物品 摆 放 间隔 尽 可 能 大 。 同 时 物 


品 间 的 距离 对 最 终 的 测试 结果 有 一 定 影响 。 
图 8 是 实际 测试 场景 图 ， 包 含 了 所 有 数据 集中 的 物品 。 测 
试 结果 预 基 
R-CNN 识 


目标 : 正确 地 定位 识别 出 所 有 物品 。 图 9 是 Fast 


别 效果 。 图 10 是 Faster R-CNN 识别 效果 。 


从 图 中 可 以 看 出 ， 将 两 种 算法 分 别 应 用 在 机 器 人 平台 中 得 


到 的 检测 
正确 


算法 ， 


结果 大 不 相同 。 由 图 10 可 见 , 机 器 人 使 用 Fast R-CNN 


地 识别 出 咖啡 绿茶、 沐浴 露 、 牛 奶 、 可 乐 、 洗 发 


水 ， 但 将 酸奶 误 识别 成 牛奶 和 未 识别 出 香皂 ， 这 可 能 是 由 于 酸 
奶 和 奶 有 相似 的 颜色 和 外 形 特 征 ， 香 皂 与 背景 的 颜色 相近 并 且 


目标 较 小 ， 
识别 。 而 
正确 地 定位 、 


在 提取 其 特征 时 会 得 到 不 明显 的 特征 ， 所 以 造成 未 
图 11 可 看 到 ， 机 器 人 使 用 Faster R-CNN 算法 可 以 


识别 出 所 有 物品 。Fast R-CNN 网 络 对 于 物品 识别 


的 效果 以 及 准确 率 都 没有 Faster R-CNN 网 络 好 ，Fast R-CNN 
网 络 出 现 误 检测 和 漏 检测 , 而 Faster R-CNN 网 络 将 物品 全 部 识 


别 准确 。 


于 加 载 其 他 测试 图 继续 进行 误 检 、 注 


检 实 验 。 实 验 物 品 主 


要 包括 奶茶 、 一 次 性 纸杯 、 香 皂 、 
集中 的 物品 ， 奶 茶 、 一 次 性 纸杯 、 


试 结果 预期 目标 : 只 定位 识别 


EE 


纸 卷 ， 
4 


氏 卷 不 是 数据 集中 物品 。 测 


其 中 只 有 香皂 是 数据 


E H 


他 物品 不 识别 。 图 11 


为 Fast R-CNN 测试 图 。 图 12 为 Faster R-CNN 测试 图 。 


图 12 Faster R-CNN 测试 图 
选取 该 四 件 物品 作为 误 检 、 漏 检测 试 的 原因 是 : 奶茶 、 一 
次 性 纸杯 、 纸 卷 的 形状 与 颜色 和 训练 数据 集中 的 物品 ， 像 奶 、 


酸奶 、 香 皂 等 ， 有 很 高 的 相似 度 。 
对 比 图 11 和 12 的 实验 结果 可 以 看 出 , Fast R-CNN 能 够 正 


T 
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确 地 识别 出 香皂 ， 但 将 纸 卷 同 样 识别 成 香皂 ， 并 且 置 信和 度 〈 即 
准确 度 ) 只 有 74.296, 造成 这 个 结果 的 原因 是 FastR-CNN 在 测 
试 时 提取 到 纸 卷 和 香皂 具有 相同 的 颜色 、 纹 理 特征 。 而 Faster 
R-CNN 可 以 正确 地 识别 出 香皂 ， 同 时 不 会 造成 误 检 。 两 种 算法 
都 不 会 误 检 奶茶 、 一 次 性 纸杯 。 

下 一 步 选取 多 件 物 品 ， 其 中 只 有 一 件 不 是 训练 数据 集中 的 
物品 ， 同 时 实验 测试 角度 ， 与 数据 集中 部 分 物品 采集 样本 的 角 
度 有 些 差 别 ， 即 实验 两 种 算法 的 环境 适应 性 。 实 验 物品 包括 香 
皇 、 沐 浴 露 、 咖 啡 〈 两 种 ) 、 奶 茶 、 洗 发 水 ， 其 中 除 奶茶 外 ， 
剩余 物品 全 部 是 数据 集中 的 物品 。 测 试 结果 预期 目标 : 除 奶 茶 
外 ， 正 确 地 定位 识别 所 有 物品 。 图 13 为 Fast R-CNN 测试 图 。 
14 为 Faster R-CNN 测试 图 。 


图 14 Faster R-CNN 测试 图 
对 比 图 13 和 14 的 实验 结果 可 以 发 现 ， 两 种 算法 都 能 够 正 
确 地 识别 出 部 分 训练 数据 集中 的 物品 ， 但 将 缸 装 咖啡 误 识 别 成 


可 乐 。 经 过 多 次 实验 发 现 ， 在 该 角度 下 两 种 算法 提取 到 的 饶 装 
咖啡 与 可 乐 有 部 分 相似 的 特征 ， 数 据 集中 镀 装 可 乐 没有 该 角度 
下 的 样本 ， 而 可 乐 有 多 角度 的 样本 ， 同 时 在 该 光照 下 的 镀 装 咖 
啡 的 颜色 特征 与 可 乐 的 颜色 特征 相似 , 因此 造成 此 类 识别 结果 。 
所 以 ， 机 器 人 控制 kinect 拍摄 图 片 的 角度 与 数据 集中 的 物品 拍 
摄 角 度 应 高 度 相似 ， 即 对 样本 进行 尺度 变换 和 增强 ， 这 对 算法 
在 识别 过 程 中 提取 非常 突出 的 物品 特征 和 对 物品 的 定位 、 识 别 
有 重要 的 作用 。 

最 后 改变 实验 图 片 采 集 的 角度 ， 分 别 使 用 Fast R-CNN 和 
Faster R-CNN 两 种 算法 对 多 张 不 同 角度 的 图 片 进行 测试 。 通 过 
大 量 实验 结果 可 以 得 出 ，Fast R-CNN 和 Faster R-CNN 测试 实 
验 结果 都 并 不 非常 理想 。Fast R-CNN 能 够 正确 地 识别 数据 集中 
的 部 分 物品 ; 而 Faster R-CNN 除了 能 够 正确 地 识别 出 数据 集中 
的 物品 外 ， 对 非 数据 集中 的 物品 产生 了 误 检 。 造 成 上 述 两 个 实 
验 结果 的 原因 在 于 机 器 人 拍摄 物品 的 角度 与 训练 数据 集中 物品 
拍摄 角度 不 同 ， 所 以 可 适当 地 增加 训练 数据 ， 对 图 片 进行 尺度 
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变换 , 通过 数据 增强 的 方式 ,弥补 机 器 人 平台 采集 数据 的 劣势 。 
最 后 结合 上 述 实验 结果 和 其 他 测试 图 片 的 实验 结果 ， 将 
Fast R-CNN 和 Faster R-CNN 网 络 在 家 庭 服 务 机 器 人 竞赛 中 的 
各 项 参数 统计 在 表 1 中 。 
X1 Fast R-CNN, Faster R-CNN 参数 对 比 


算法 mAP 训练 耗 时 ”测试 耗 时 RER WEK 
FastR-CNN 75% 约 10h 2.1s 20% 5% 
Faster R-CNN 90% 约 14h 1.5s 6% 496 


表 1 分 析 可 得 ， Fast R-CNN 检测 准确 率 在 75% 左 右 ， 训 
练 耗 时 约 10h, 测试 耗 时 2.1 s 左右 ， 误 检 率 20%， 漏 检 率 5%; 
Faster R-CNN 检测 准确 率 在 90% 左 右 ， 训 练 耗 时 约 14 h， 测 试 
耗 时 1.5 s 左右 ， 误 检 率 6%， 漏 检 率 4%。 由 于 训练 方式 的 不 
E], Faster R-CNN 多 训练 一 个 RPN 网 络 ， 所 以 训练 耗 时 要 比 
Fast R-CNN 略 长 。 考虑 到 开发 成 本 较 高 和 服务 机 器 人 的 内 部 空 
间 不 足 等 问题 ， 虽 然 在 耗 时 上 两 者 都 没有 达到 实时 的 级 别 ， 但 
Faster R-CNN 的 测试 耗 时 明显 低 于 Fast R-CNN。 分 析 原 因 是 
Faster R-CNN 使 用 卷 积 网 络 自行 产生 建议 框 ， 并 且 和 目标 检测 
网 络 共享 卷 积 网 络 ， 使 得 建议 框 数 目 从 原 有 的 约 2 000 个 减少 
为 300 个 ， 且 建议 框 的 质量 也 有 很 大 的 提高 。 

2) End to End 训练 方法 与 alt-opt 训练 方法 对 比 

Faster R-CNN 提供 了 两 种 不 同 的 训练 算法 ， 两 种 方法 都 会 
得 到 优 于 Fast R-CNN 的 检测 效果 。 

首先 对 多 目标 进行 实验 。 机 器 人 拍摄 到 角度 正常 的 测试 图 
片 ， 为 了 增加 实验 难度 ， 选 择 的 实验 物品 有 相似 的 形状 特征 、 
颜色 特征 ， 且 会 出 现 非 数据 集 中 的 物品 。 
通过 多 次 实验 可 以 得 出 以 下 结论 : 在 服务 机 器 人 平台 拍摄 
的 测试 图 片 角度 正常 的 情况 下 , 机 器 人 使 用 Faster R-CNN 中 的 
alt-opt 算法 检测 的 准确 率 接近 End to End 检测 的 准确 率 ， 在 对 
正常 角度 图 片 测试 时 ，End to End 算法 可 以 正确 地 定位 识别 出 
数据 集中 的 物品 ， 同 时 不 会 检测 非 数 据 集 物 品 。 

为 了 进一步 检测 算法 效果 ， 下 一 步 将 测试 非 正常 角度 的 物 
品 。 实 验 物品 包括 洗 发 水 、 洁 面 乳 、 瓶 装 咖 啡 。 三 种 物品 有 相 
似 的 轮廓 ， 但 在 两 种 算法 中 得 出 了 不 同 的 结果 ， 其 中 洗 发 水 和 
瓶装 咖啡 是 数据 集中 的 物品 ， 洁 面 乳 不 是 数据 集中 的 物品 。 测 
试 结果 预期 目标 : 可 以 正确 地 定位 识别 出 洗 发 水 和 瓶装 咖啡 ， 
不 会 识别 洁面 乳 。 图 15 为 alt-opt 训练 方法 测试 图 。 图 16 73 End 
to End 训练 方法 测试 图 。 
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图 15  alt-opt 训练 方法 测试 图 
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图 16 End to End 训练 方法 测试 图 


通过 多 次 实验 可 以 看 出 ， 图 15 使 用 alt-opt 训练 方法 得 到 
的 模型 正确 地 将 洗 发 水 和 瓶装 咖啡 识别 出 来 ,但 出 现 了 误 检测 ， 
洁面 乳 被 识别 成 咖啡 。 出 现 这 种 结果 的 原因 很 可 能 是 洁面 乳 和 
瓶装 咖啡 有 相似 的 暗色 和 轮廓 ， 在 特征 提取 时 得 到 了 近似 的 特 
征 。 而 图 16 是 使 用 End to End 方法 测试 的 结果 ， 该 方法 训练 
的 模型 正确 地 检测 到 洗 发 水 和 瓶装 咖啡 ， 没 有 出 现 误 检测 。 同 
时 End to End 算法 检测 时 间 较 alt-op 算法 检测 时 间 略 快 ， 这 是 
于 alt-opt 算法 在 训练 模型 过 程 中 分 四 个 阶段 ，End to End 算 
法 不 分 阶段 ， 所 以 alt-opt 算法 较 End to End 算法 产生 更 多 的 权 
重 值 。 综 上 所 述 ， 对 于 本 实验 平台 ，End to End 方法 更 适用 。 

综合 两 种 训练 算法 ， 表 2 为 多 次 实验 测试 结果 的 参数 。 

表 2 alt-opt 与 End to End 参数 对 比 


In 
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算法 mAP ”训练 耗 时 ”测试 耗 时 — 误 检 率 WEK 
alt-opt 8996 约 14h 1.6s 6% 5% 
EndtoEnd 90% 约 11h 1.5s 5% 496 


表 2 分 析 可 得 ，alt-opt 检测 准确 率 在 89% 左 右 ， 训 练 耗 
时 约 14h， 测 试 耗 时 1.6 s 左右 ， 误 检 率 6%， 漏 检 率 5%; End 
to End 检测 准确 率 在 90% 左 右 , 训练 耗 时 约 11 h, 测试 耗 时 1.5 
s 左右 ， 误 检 率 5%， 漏 检 率 4%。 由 于 alt-opt 算法 训练 分 为 四 
个 阶段 ， 每 个 阶段 在 训练 完 后 都 会 进行 模型 检测 ， 所 以 在 训练 
过 程 中 耗 时 更 多 。 在 检测 速度 、 误 检 率 和 漏 检 率 方面 ,End to End 
训练 方法 略 胜 一 筹 。 而 End to End 算法 在 测试 时 占用 的 内 存 较 
alt-opt 算法 小 ， 因 此 检测 速度 更 快 。 

分 析 实 验 结果 : 目标 检测 网 络 中 ， 在 特定 场景 下 ，Faster 
R-CNN 的 网 络 检测 性 能 要 优 于 Fast R-CNN; 对 于 本 实验 平台 
应 用 的 Faster R-CNN 算法 中 ，End to End 训练 方法 要 略 优 于 
alt-opt 算法 。 在 实际 测试 中 ， 机 器 人 使 用 Faster R-CNN 能 够 识 
别 出 更 多 的 物品 。 同 时 ， 适 当地 增加 样本 集中 物品 的 数量 会 对 
最 终 检 测 结果 有 更 好 影响 ， 多 卷 积 层 可 提取 更 多 的 物品 特征 ， 
保证 识别 准确 率 。 
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近年 来 随 着 人 工 智 能 技术 的 飞速 发 展 ， 传 统 的 物品 识别 方 
法 不 仅 效率 低 、 检 测速 度 慢 ， 而 且 误 检 率 和 漏 检 率 高 。 然 而 深 
度 学 习 的 方法 将 物品 特征 交 给 神经 网 络 去 提取 ， 通 过 反 向 传播 
算法 与 正 向 传播 构成 反馈 自动 地 调整 学 习 到 的 参数 ， 避 免 了 单 
个 算法 在 识别 过 程 中 的 劣势 ， 很 大 程度 上 解决 了 这 些 问题 。 本 
文 利用 深度 学 习 中 识别 效果 较 好 的 Faster R-CNN 算法 ， 将 物品 
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识别 方法 转向 将 深度 学 习 应 用 到 家 庭 服务 机 器 人 平台 ， 通 过 选 
择 适 用 于 实验 平台 的 训练 算法 实现 机 器 人 自主 识别 物品 并 提高 
准确 率 。 通 过 实验 和 竞赛 结果 对 比 发 现 ，EFaster R-CNN 算法 应 
用 在 服务 机 器 人 可 达到 90% 的 识别 准确 率 。 考 虑 到 服务 机 器 人 
平台 的 造价 和 内 部 空间 的 前 提 下 ， 本 次 实验 未 配置 GPU， 因 此 
所 有 实验 结果 均 是 在 CPU 上 得 到 ， 在 CPU 上 运行 End to End 
训练 方法 的 检测 速率 在 1.5 s 左右 , 运行 alt-opt 训练 方法 的 检测 
速率 在 1.6 s 左右 ， 准 确 率 均 在 90% 左 右 ， 相 比 传统 图 像 识别 算 
法 ， 深 度 学 习 更 胜 一 筹 。 因 此 采用 Faster R-CNN 加 End to End 
训练 算法 更 适用 于 服务 机 器 人 平台 。 但 是 该 方法 对 于 光线 
定 的 要 求 ， 如 果 光 线 过 上 暗 ， 机 器 人 拍摄 的 图 片 可 能 无 法 进行 正 
常 的 识别 。 经 过 多 次 实验 发 现 ， 较 小 目标 的 识别 也 有 一 定 困难 。 
考虑 到 GPU 对 算法 运行 的 速率 和 准确 性 ,团队 最 终 会 依据 硬件 
平台 加 入 适用 版 本 的 GPU。 同 时 ， 实 时 性 也 是 工业 级 机 器 人 发 
展 的 方向 。 对 于 这 些 问题 ，Sun@Home 物品 识别 团队 将 会 继续 
开发 和 深入 研究 。 
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